トレーニングデータとして、CC-100(https://t.co/uMFIL20AXP)のオープンソースデータを使用しています。 日本語はダウンロードするだけで15GBです。 そのあと展開して加工する。



from Twitter https://twitter.com/o_ob